Data 大數據(攝取資料)

第 11 屆 iThome 鐵人賽

DAY 3

AI & Data

AI&Machine Learning系列第 3 篇

11th鐵人賽

ken36789

團隊Turing World

2019-09-19 19:39:56

1964 瀏覽

分享至

本篇會以大數據(攝取資料)來做為介紹，對於本人來說即是使用python 來做於大數據收集所以大多資訊會以python為主。

Python 現在很夯的語言，因為它具有GOOGLE後台的AI資源以及模組化的各項設計，加上語法非常貼近我們日常使用，所以變成大眾化的程式語言。

攝取資料：
　　對於攝取資料方式，大多都以網路來說，對於網路攝取資料方式，相信大家都不陌生，即是使用網路爬蟲來解決，分析HTML資料後再藉由爬蟲模組化功能將HTML相對應資料擷取下來做使用。

相信有用過python的人，多少都知道Jupyter notebook，此工具適合拿來做大數據使用，因為背景是以網頁架構設計，所以攝取下來的資料都非常完整以及工整，若是一般的IDE可能沒有他這麼的方便，再來IDE決定清楚之後再來針對爬蟲所需要的資料來使用對應的模組，request 以及 beautifulsoup4，這兩個非常常見在使用網路爬蟲上，這兩個部份一個是針對網路性質抓取對應HTML資料下來(request)，另外一個即是將HTML資料做解析並且抓取想知道的資料(beautifulsoup4)

import request
from bs4 import BeautifulSoup

url = "輸入您要的網址"

html = request.get(url)
print (html.text)

以上小段的程式碼，此示範為將一個所需要的網站內容透過python內部的request方式抓下來並且收錄到自己的參數中，後續可以針對網頁的特性關西可以使用beautifulsoup4方法來抓取

根據圖片中的 class為主以及 id 利用beautifulsoup4 抓取只要注意一般的標籤名子 a t div 等等都是一般標籤名，如果遇到類別 class 以及特殊名子 id 需要用對應方法

class => soup.select('.modal-dialog')

id => soup.select('#AtUser')

這樣以上介紹即可做到想到抓到的相關資料，以上為不專業介紹，請各位海涵，後段會再介紹細節部分，那我們下篇見~

AI&Data&Machine-Learning 基本介紹

Data 大數據(彙整資料)

系列文

AI&Machine Learning 共 30 篇

RSS系列文訂閱系列文

8 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22209 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

AI&Machine Learning系列 第 3 篇